我们研究视觉变压器(VIT)的半监督学习(SSL),尽管VIT架构广泛采用了不同的任务,但视觉变形金刚(VIT)还是一个不足的主题。为了解决这个问题,我们提出了一条新的SSL管道,该管道由第一个联合国/自制的预训练组成,然后是监督的微调,最后是半监督的微调。在半监督的微调阶段,我们采用指数的移动平均线(EMA) - 教师框架,而不是流行的FixMatch,因为前者更稳定,并且为半手不见的视觉变压器提供了更高的准确性。此外,我们提出了一种概率的伪混合机制来插入未标记的样品及其伪标签以改善正则化,这对于训练电感偏差较弱的训练VIT很重要。我们所提出的方法被称为半vit,比半监督分类设置中的CNN对应物获得可比性或更好的性能。半vit还享受VIT的可伸缩性优势,可以很容易地扩展到具有越来越高的精度的大型模型。例如,半效率总数仅使用1%标签在Imagenet上获得令人印象深刻的80%TOP-1精度,使用100%ImageNet标签与Inception-V4相当。
translated by 谷歌翻译